iT邦幫忙

2023 iThome 鐵人賽

DAY 28
0
AI & Data

進入AI的世界系列 第 28

➤D-28 核心應用☞自然語言處理-4(特徵抽取2)

  • 分享至 

  • xImage
  •  

NLP特徵抽取

詞向量模式基本概念

詞向量(Word Vector)或稱詞嵌入(Word Embedding)以「固定維度向量」方式,利用詞與「上下文關係」(Context Relationship)大小,來表示一個詞本身所具有的「語意特徵」(Semantic Feature)。

  1. 詞向量以「降維」的表示方式:
    以降維方式來抽取比這些詞「更高層次」、「更具區別性」的「隱藏特徵」。
  2. 詞向量以固定維數表示:
    一般詞向量維度都在數百、數千之間GPT-3則有上萬個維度,常用的,例如:300。
    對於每個詞我們都用300個參數來表達這個詞的特徵與涵義。
  3. 相同語意的詞在高維度下空間距離相近。

詞向量主要抽取模式

  1. Word Vector
    Ⅰ. CBOW:利用上下文(Context)來訓練產生出來的與預測一個「目標單詞」並從隱藏層中獲取各個輸入單詞的「參數」。
    Ⅱ. 跳躍式模型(Skip-Gram Model)
  2. GloVe詞向量(Global Vectors for Word Representation):
    一種與「詞與詞」的共現矩陣(Co-occurrence Matrix)為核心所計算出來的一種詞向量。步驟如下:
    Ⅰ. 根據語料庫建構一個「共現矩陣」來表達每個詞與其他文內所有詞在整個全局的語料庫中同時出現的次數。
    Ⅱ. 根據這個共現關係,利用統計模式,來估算每個詞的詞向量,使這個詞向量能準確表達兩個詞之間的「共現特徵」。
  3. 詞向量模式比較
    • Skip-Gram Model複雜度高、訓練時間長,但訓練效果良好。
    • CBOW複雜度低、訓練時間較短但訓練效果較差。
    • GloVe複雜度低、訓練時間短,且訓練效果良好。

詞向量優點

  1. 瞭解詞與詞之間關係:瞭解詞與詞之間語意相同性、相似性,例如:「跑」與「走」、「狗」與「貓」等。
  2. 密集向量表示(Dense One Hot Encoding):密集的分布,只存在固定的維度。且每個維度都存在著有意義的權重,BOW的One Hot Coding只有一兩個參數值是「1」其他都是「0」。
  3. 瞭解詞與上下文之間的關係:充分考慮上下文的順序關係,更能瞭解每個詞「本質上的意涵」。
  4. 瞭解詞本身語意:透過不斷預測上下文,從而得知大學生這個詞的主要特徵語意涵。

詞向量缺點

  1. 無法處理「同詞異議」關係:每個詞最終只得到只有一個詞向量,例如:植物需要吸收「水分」與財務報表內太多「水分」。
  2. 指代消歧問題:對於一個指示代名詞(it、who)其到底是連接哪個名詞,尤其這兩個相關的詞距離太遠時,常無法精確的處理。
  3. 沒有文本背景瞭解:詞向量只是詞層次的語意表示。

句向量特徵抽取

以句子為單位,以固定維數向量,來訓練學習與表示。
主要模式有下列幾種:

  1. 詞袋模式(BOW)家族:代表的是TF-IDF模型,用TF-IDF計算來表達在一個句子向量中,哪些詞的權重較高,而這些權重的「加權總合」,即為此句子的意義與特徵,簡單容易使用,但具備了BOW演算法先天缺點。
  2. 詞向量模式:此法是以詞向量(Word Vector)為基礎透過各種不同的轉與「加權平均」來整成句向量。
    Ⅰ. 簡單平均值模式:句子中所有詞向量加「總求和平均」。
    Ⅱ. TF-IDF模式:句子內詞向量作「加權求和」。
  3. 句向量模式(Sentence to Vector):以「句為單位」直接來學習訓練及抽取整個句子的向量。
    Ⅰ. Skip-Gram Model:預測其上下句子,求取句子向量。
    Ⅱ. CBOW Model:把單位由詞轉變成句子。
  4. 語言模型:例如BERT,利用上下句彼此之間共現關係大小來學習句向量。

參考資料
人工智慧-概念應用與管理 林東清著


上一篇
➤D-27 核心應用☞自然語言處理-3(特徵抽取1)
下一篇
➤D-29 核心應用☞自然語言處理-5(主要演算模式1)
系列文
進入AI的世界30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言